[AWS Glue] S3バケットにある大量のファイルを圧縮して別のS3バケットに保存してみた

AWS Glueでは大変お手軽にPython Scriptを実行できるのでお勧めです

#AWS Glue

#AWS

荒平祐次(arap)

2023.05.16

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、AWS事業本部の荒平(@0Air)です。

最近、S3バケットにある大量のファイルをなんとかしてZip化したいとの要望がありました。
大多数の方はLambdaを採用して済むケースが多いと思われますが、Lambdaを使わない方法を考えてみました。

概要

簡単な構成図はこちらです。
ファイル数・容量に振れ幅のあるログファイルなどを想定しているため、別バケットに保存することとしました。

Lambdaを採用しなかった背景

同じ構成はLambdaでも作ることができます。が、以下の理由から採用を見送りました。

一時ストレージは10GBまでに限られる
- AWS Lambda で最大 10 GB のエフェメラルストレージをサポート可能に
関数のタイムアウトは900秒が上限
- ファイル数が莫大だと、処理が終わらない可能性があります。その点、Glueは48時間まで動作をサポートします。

料金

今回の構成により、AWS Glue側で発生する料金は以下の通りです。 ※S3ストレージ料金等は別途かかります

課金項目	料金
AWS Glue Jobrun	Python Shell ジョブごとに、DPU 時間あたり 0.44USD が 1 秒単位で課金され、最小 1 分
AWS Glue Request	最初の 100 万回のリクエストは毎月無料。月に 100 万回を超えると、100 万回のリクエストあたり 1.00USD
AWS Glue Storage	最初の 100 万個のオブジェクトの保存は無料。月に 100 万個を超えると、10 万個のオブジェクトの保存あたり 1.00USD

なお、変更される場合がありますので最新の料金はこちらをご確認ください。

やってみる

作成したスクリプト

今回Glueにて使用するスクリプトは以下です。


import boto3
import os
import zipfile
from datetime import datetime

# バケット名を設定
source_bucket_name = 's3-bucket-name-A' # ファイルが格納されているバケット名
destination_bucket_name = 's3-bucket-name-B'  # 保存先のバケット名

# boto3のS3クライアントを初期化
s3 = boto3.client('s3')

# バケット内の全てのオブジェクトをリストアップ
objects = s3.list_objects_v2(Bucket=source_bucket_name)
files_to_zip = [obj['Key'] for obj in objects['Contents']]

# 現在の日時を取得してファイル名を作成
now = datetime.now()
zip_file_name = f"archive-{now.strftime('%Y%m%d-%H%M')}.zip"

# ZIPファイルを作成
with zipfile.ZipFile(zip_file_name, 'w') as archive:
    for file_name in files_to_zip:
        # ファイルを一時的にダウンロード
        s3.download_file(source_bucket_name, file_name, file_name)

        # ZIPにファイルを追加
        archive.write(file_name)

        # ローカルのファイルを削除
        os.remove(file_name)

# ZIPファイルを保存先のS3バケットにアップロード
with open(zip_file_name, 'rb') as data:
    s3.upload_fileobj(data, destination_bucket_name, zip_file_name)

# ローカルのZIPファイルを削除
os.remove(zip_file_name)